Welcome to pandas!

4 字符串清洗技术

4.1 正则表达式导入与创建

字符串的处理,在数据清洗中占比很大,也就是说有很多不规则数据的处理,都是对字符串处理。Excel提供了拆分、提取、查找、替换等对字符串处理的技术。在Pandas中同样提供了这些功能,并且在pandas中还有正则表达式技术的加持,让其字符处理能力更加强大。

要在python中使用正则表达式,首先要引入re这个库,它是python的内置库。

1、 在导入re库之后,直接使用re.函数()来使用正则表达式,比如使用re.findall()函数

2、 如果要重复使用一个正则表达式对象,则可以将正则表达式预编译成正则表达式对象,这样效率更高,在导入re库之后,将正则表达式写入re.compile()函数,然后生成正则表达式对象,再调这个对象的函数处理,如re.compile(r”\d”).findall(“9527”)

compile:汇编,编译

import re

t=re.findall( "\d" , "dtt9527dfhdd" )

p=re.compile( "\d" ) #编译一次可以多次使用

t1=p.findall( "dtt9527dfhdd" )

t2=p.findall( "dtt9527-2dfhdd" )

print (t)

print (t1)

print (t2)

返回:

[ '9', '5', '2', '7' ]

[ '9', '5', '2', '7' ]

[ '9', '5', '2', '7', '2' ]